智能论文笔记

Capturing and Inferring Dense Full-Body Human-Scene Contact

Chun-Hao P. Huang , Hongwei Yi , Markus Höschle , Matvey Safroshkin , Tsvetelina Alexiadis , Senya Polikovsky , Daniel Scharstein , Michael J. Black

分类：计算机视觉

2022-06-20

推断人类场景接触（HSC）是了解人类如何与周围环境相互作用的第一步。尽管检测2D人类对象的相互作用（HOI）和重建3D人姿势和形状（HPS）已经取得了重大进展，但单个图像的3D人习惯接触的推理仍然具有挑战性。现有的HSC检测方法仅考虑几种类型的预定义接触，通常将身体和场景降低到少数原语，甚至忽略了图像证据。为了预测单个图像的人类场景接触，我们从数据和算法的角度解决了上述局限性。我们捕获了一个名为“真实场景，互动，联系和人类”的新数据集。 Rich在4K分辨率上包含多视图室外/室内视频序列，使用无标记运动捕获，3D身体扫描和高分辨率3D场景扫描捕获的地面3D人体。 Rich的一个关键特征是它还包含身体上精确的顶点级接触标签。使用Rich，我们训练一个网络，该网络可预测单个RGB图像的密集车身场景接触。我们的主要见解是，接触中的区域总是被阻塞，因此网络需要能够探索整个图像以获取证据。我们使用变压器学习这种非本地关系，并提出新的身体场景接触变压器（BSTRO）。很少有方法探索3D接触；那些只专注于脚的人，将脚接触作为后处理步骤，或从身体姿势中推断出无需看现场的接触。据我们所知，BSTRO是直接从单个图像中直接估计3D身体场景接触的方法。我们证明，BSTRO的表现明显优于先前的艺术。代码和数据集可在https://rich.is.tue.mpg.de上获得。

translated by 谷歌翻译

通用形态（UNIMORPH）项目是一项合作的努力，可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力：一种无独立的特征架构，用于丰富的形态注释，并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进（自McCarthy等人（2020年）以来）。众多语言学家的合作努力增加了67种新语言，其中包括30种濒危语言。我们已经对提取管道进行了一些改进，以解决一些问题，例如缺少性别和马克龙信息。我们还修改了模式，使用了形态学现象所需的层次结构，例如多肢体协议和案例堆叠，同时添加了一些缺失的形态特征，以使模式更具包容性。鉴于上一个UniMorph版本，我们还通过16种语言的词素分割增强了数据库。最后，这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。

translated by 谷歌翻译

对于顺序数据，更改点是突然的制度交换机的时刻。这种更改出现在不同的场景中，包括复杂的视频监控，并且我们需要尽可能快地检测它们。由于没有足够的数据表示学习程序，改变点检测（CPD）的经典方法对于半结构化的顺序数据而言。我们提出了一个原则性的损失函数，近似于经典严谨的解决方案，但有所不同，并实现了代表学习。此损耗函数余额将检测延迟和时间变平衡，以为CPD提供成功的模型。在实验中，我们考虑简单的系列和更复杂的真实图像序列和具有变化点的视频。对于更复杂的问题，我们表明我们需要针对CPD任务的特殊性量身定制的更有意义的陈述。考虑到这一点，所提出的方法临时改善了CPD的基线结果，以了解各种数据类型。对于爆炸检测，与基线相比，我们的方法的F1分数为0.54美元，价格为0.46美元和0.30美元。

translated by 谷歌翻译